查看原文
其他

论文推荐|[AAAI 2021] SPIN:用于场景文本识别的结构保持内部偏移网络

黄宇浩 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍AAAI 2021录论文“SPIN: Structure-Preserving Inner Offset Network for Scene Text Recognition”的主要工作。该工作针对复杂场景文本图像的色彩失真问题,提出了一个可学习的几何无关的矫正模块SPIN,它可以对图片进行色彩矫正。该模块可以插入到现有的识别框架中,并且可以作为补充模块和空间变换模块共同工作,以提升复杂场景下的文本识别性能。

一、研究背景



图 1 规则和不规则场景文本的例子:(a)规则场景文本,(b)不规则场景文本的几何失真,(c)不规则场景文本的色彩失真,(d)不规则场景文本的几何和色彩失真

因为现有的识别方法对规则文本识别已经非常强大了,所以阅读不规则文本成为了一个具有挑战性但热门的研究话题。尽管现有的大多数矫正方法都局限于几何矫正,但是形状失真问题并不能够覆盖到场景文本识别中的所有困难情况。强度变化、低亮度、阴影、背景和成像噪声,甚至一些人类也不能察觉的噪声,这些恶劣的条件也会给深度学习带来困难。文章把这种类型的问题称为色彩失真。

通常色彩失真可以分为如图2所示的两种情况,分别是模式间(Inter-pattern)问题和模式内(Intra-pattern)问题。作者把像素强度值相同的所有像素点统称为模式。如图2(a)所示,模式间的色彩失真是指噪声模式与文本模式相近(例如低对比度或低亮度)或者是文本模式的强度比较分散。解决方法是分离文本模式和背景模式,并且将每个字符聚合为统一的文本模式。如图2(a)中把‘L’,‘O’,‘V’,‘E’的像素强度和背景的强度分离,同时使字符间的强度接近,文本会变得更容易识别。如图2(b)所示,模式内的色彩失真是指文本模式受到阴影,遮挡等噪声的干扰,例如图2(b)中左下方的阴影与‘L’重合的情况。因此作者提出了SPIN模块,去解决这两种色彩失真问题。 

图 2 两种类型的色彩失真问题。Pattern的定义是一张图片中有相同强度的所有像素点

二、方法介绍


图 3 SPIN的总体框架:(a)输入图片x将首先被送进一个精心设计的网络,然后分别输出更新后的图片x和一组参数,(b)使用生成的参数对更新后的图片进行结构保留的变换

网络的整体框架如图3所示,SPIN由两个组件构成,分别是结构保留网络(SPN)和辅助的内部偏移网络(AIN)。SPN和AIN的结构如表1所示,其中SPN用于解决模式间问题,AIN是一个辅助网络用于解决模式内问题。这两个组件能够起到互补的作用。下面详细介绍着两种组件的原理。

表 1 SPN和AIN的网络结构 

2.1 结构保留网络 (SPN)

受启发于结构保留变换(SPT)[1],作者发现基于SPT的变换还能够通过调整像素点的强度值来矫正图片的色彩失真问题。SPT的一般形式可以定义为多个幂函数的线性组合,如下所示: 

其中是第i个基幂函数的指数,是权重。通过把每个像素点的强度值归一化到[0,1]区间,总的强度空间能够被分成K个子空间。每个空间都可以在一定的线性约束下通过指数函数建模,其中。因此参数可以通过以下式子计算: 

为了简单起见,参数可以根据领域来选择或预先固定好。另外K值决定了变换的复杂度,大的K值能够支持更复杂或细粒度的色彩空间。因此,基于SPN的变换可以概括为: 

其中分别是表1中Block8的部分权重和特征提取器。是Block8的一个2(K+1)维的输出,Block8总共有2(K+2)维。

本质上,结构保留是通过过滤输入图片的强度等级来实现的。强度等级相同的所有像素点,经过变换后强度等级不会改变,其中模式的定义是强度等级为c的像素点集合{(i,j)|x(i,j)=c}。直观上来说,SPN从两方面来矫正色彩失真:(1)将有用模式和噪声模式分配到不同的强度等级,使得它能够分离开,这样能够生成更好的对比度和亮度的图片。(2)将不同强度等级的模式映射到相近的强度等级,并聚合它们,这有利于渲染更统一的图片。上述的情况适合解决模式间的问题,但不能解决模式内的问题。

2.2 辅助的内部偏移网络 (AIN)

AIN可以用来解决模式内的色彩失真问题,噪声模式和有用模式的强度相似会导致模式混淆,从而会引发模式内的色彩失真。作者借用了几何变换中偏移量的概念[2],引入了色彩偏移量(即内部偏移量),内部偏移量的定义如下: 

其中是内部偏移量,α是可学习的更新门,是更新后的图片,是特征提取器,它的结构如表1所示。AIN首先将图片分成小块,然后分别为每个块预测偏移量,所有的偏移量都会通过sigmoid(⋅)函数进行激活,并通过上采样的方式映射到原图,内部偏移量可以在像素点上,轻微地改变强度等级,从而解决模式混淆的问题。加入AIN后,总体变换定义如下: 

2.3 融入几何矫正的扩展

空间变换通过预测相应点的坐标,来矫正模式的位置偏移。然后根据这些点,对图片进行重采样。具体定义如下: 

其中调整后的坐标位置,f是变换所用的函数(如Affine,TPS)。结合色彩矫正和空间变换,作者提出了几何融入的SPIN(称为GA-SPIN),它的式子定义如下: 

GA-SPIN结合了空间变换和色彩变换,可以对图片进行几何和色彩的矫正。

三、主要实验结果及可视化效果


表2 与SOTA方法的比较 

表3 对比色彩矫正和几何矫正的方法 

表4 对比基于STN的矫正方法  

图 4 可视化不同方法对色彩失真的矫正效果 

图 5 可视化矫正效果和识别结果

表2是跟SOTA方法的对比。表3对比了每一种矫正模块的性能,其中(a)是不包含任何矫正模块的baseline,(b)和(c)只包含色彩矫正,(d)只包含几何矫正,(e)和(f)结合了色彩矫正和几何矫正,可以发现色彩矫正和几何矫正都能提升识别性能,两者结合更好。表4是跟基于几何矫正的识别方法对比的结果,GA-SPIN这种结合色彩矫正和几何矫正的方法,超过了已有的方法。图4可视化了矫正的效果,由图可知SPN可以调整图片的色彩亮度,而AIN可以处理阴影或遮挡的问题。图5是识别结果的可视化,可以看到几何矫正和色彩校正有互补的作用,结合两者效果更佳。

总结


本文在场景文本识别中,提出了一种新的色彩矫正方法SPIN。该方法通过调整图像的通道强度值,主动地改变输入图像的色彩,使得能够得到更清晰的文本图像。并且SPIN还能够和几何矫正模块结合,构成GA-SPIN进一步提升矫正能力和识别性能。

相关资源


SPIN论文下载地址:https://arxiv.org/pdf/2005.13117.pdf

参考文献


[1] Peng, D.; Zheng, Z.; and Zhang, X. 2019. Structure-Preserving Transformation: Generating Diverse and Transferable Adversarial Examples. CoRR abs/1809.02786.
[2] Luo, C.; Jin, L.; and Sun, Z. 2019. MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition. Pattern Recognition 109-118.


原文作者Chengwei Zhang, Yunlu Xu, Zhanzhan Cheng, Shiliang Pu, Yi Niu, Fei Wu, Futai Zou
撰稿:黄宇浩编排:高 学

审校:连宙辉

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:D




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存